Extracção de Relações Semânticas de Textos em Português Explorando a DBpédia e a Wikipédia

نویسندگان

  • David S. Batista
  • David Forte
  • Rui Silva
  • Bruno Martins
  • Mário J. Silva
چکیده

A identificação de relações semânticas, expressas entre entidades mencionadas em textos, é um passo importante para a extracção automática de conhecimento a partir de grandes colecções de documentos, tais como a Web. Vários trabalhos anteriores abordaram esta tarefa para o caso da ĺıngua inglesa, usando técnicas de aprendizagem automática supervisionada para classificação de relações, sendo que o actual estado da arte recorre a métodos baseados em string kernels (Kim et al., 2010; Zhao e Grishman, 2005). No entanto, estas abordagens requerem dados de treino anotados manualmente para cada tipo de relação, além de que os mesmos têm problemas de escalabilidade para as dezenas ou centenas de diferentes tipos de relações que podem ser expressas. Este artigo discute uma abordagem com supervisão distante (Mintz et al., 2009) para a extracção de relações de textos escritos em português, a qual usa uma técnica eficiente para a medição de similaridade entre exemplares de relações, baseada em valores mı́nimos de dispersão (i.e., min-hashing) (Broder, 1997) e em dispersão senśıvel à localização (i.e., Locality-Sensitive Hashing) (Rajaraman e Ullman, 2011). No método proposto, os exemplos de treino são recolhidos automaticamente da Wikipédia, correspondendo a frases que expressam relações entre pares de entidades extráıdas da DBPédia. Estes exemplos são representados como conjuntos de tetragramas de caracteres e de outros elementos representativos, sendo os conjuntos indexados numa estrutura de dados que implementa a ideia da dispersão senśıvel à localização. Procuram-se os exemplos de treino mais similares para verificar qual a relação semântica que se encontra expressa entre um determinado par de entidades numa frase, com base numa aproximação ao coeficiente de Jaccard obtida por min-hashing. A relação é atribúıda por votação ponderada, com base nestes exemplos. Testes com um conjunto de dados da Wikipédia comprovam a adequabilidade do método proposto, tendo sido extráıdos 10 tipos diferentes de relações, 8 deles assimétricos, com uma pontuação média de 55.6% em termos da medida F1.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Extracção de relações semânticas entre palavras a partir de um dicionário: o PAPEL e a sua avaliação

Neste artigo apresentamos o PAPEL, um recurso lexical para o português, constitúıdo por relações entre palavras, extráıdas de forma automática de um dicionário da ĺıngua geral através da escrita manual de gramáticas para esse efeito. Depois de contextualizarmos o tipo de recurso e as opções tomadas, fornecemos uma visão do processo da sua construção, apresentando as relações inclúıdas e a sua q...

متن کامل

Estratégias de Seleção de Conteúdo com Base na CST (Cross-document Structure Theory) para Sumarização Automática Multidocumento

O presente trabalho apresenta a definição, formalização e avaliação de estratégias de seleção de conteúdo para sumarização automática multidocumento com base na teoria discursiva CST (Cross-document Structure Theory). A tarefa de seleção de conteúdo foi modelada por meio de operadores que representam possíveis preferências do usuário para a sumarização. Estes operadores são especificados em tem...

متن کامل

Geocodificação de Documentos Textuais com Classificadores Hierárquicos Baseados em Modelos de Linguagem

A maioria dos documentos textuais, produzidos no contexto das mais diversas aplicações, encontra-se relacionado com algum tipo de contexto geográfico. Contudo, os métodos tradicionais para a prospecção de informação em colecções de documentos vêem os textos como conjuntos de termos, ignorando outros aspectos. Mais recentemente, a recuperação de informação com suporte ao contexto geográfico tem ...

متن کامل

A lusofonia na Wikipédia em 150 tópicos

Este artigo descreve os tópicos usados no Págico, a primeira avaliação conjunta em recolha de informação centrada em tópicos relacionados com a lusofonia, usando o material da Wikipédia em português. Depois de uma explicação sobre como os tópicos foram escolhidos e de questões associadas à sua escolha e à sua categorização posterior, os tópicos são apresentados por categoria. Comentamos também ...

متن کامل

Porquê o Págico? Razões para uma avaliação conjunta

Este artigo apresenta a motivação da avaliação conjunta Págico Português Mágico, organizada pela Linguateca em 2011-2012 como uma medida para (i) incentivar o desenvolvimento de sistemas de ajuda à procura de informação em português; (ii) avaliar a wikipédia em português; (iii) estudar a interação humana na procura de respostas, e compará-la com as caracteŕısticas dos sistemas automáticos. Depo...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Linguamática

دوره 5  شماره 

صفحات  -

تاریخ انتشار 2013